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摘要 :【[ 目的 /意义 ] 提 出 基于 在 线 评 论 的 网 络 社区 信息 可 信 度 评价 方法 ,为 信息 治理 提供 有 效 依据 。[ 方 
法 “过程 ] 构 建 基于 在 线 评论 的 网 络 社区 信息 可 信 度 评价 指标 体系 ,利用 改进 AHP 理论 确定 指标 权重 ;利用 
LSTM 模型 对 评论 情感 分 类 ,采用 改进 的 DSS 证 据 理论 模型 融合 情感 分 类 数据 作为 指标 量化 计算 方法 。 以 知 卑 
网 络 社区 为 例 , 从 3 个 角度 计算 网 络 信息 内 容 的 可 信 度 :经 过 筛选 的 具有 可 信 观 点 评价 的 在 线 评论 所 有 在 线 
评论 、 调 查 问卷 。[ 结果/ 结论] 实验 结果 表明 ,基于 可 信 观 点 评论 的 可 信 度 排序 与 基于 调查 问卷 的 可 信 度 排序 
基本 一 致 ,说 明 利 用 在 线 评论 对 网 络 信息 可 信 度 进行 评价 具有 一 定 的 可 行 性 。 

关键 词 : 在 线 评论 ”信息 可 信 度 ”改进 D-S 证据 理 论 模型 ”网 络 社区 
工 ” 分 类 号 : G250 
OO DOI:10.13266/j. issn. 0252 -3116.2019.17.016 


马 随 着 网 络 信息 爆炸 式 增长 ,网 络 信 息 成 为 人 们 的 ” 媒介 语 境 下 研究 不 同 传播 者 特征 对 信息 处 理 过 程 的 影 
主要 信息 来 源 。 在 网 络 数据 访问 不 受 限制 的 条 件 下 ， ” 响 , 传 播 者 可 以 是 个 人 、 小 组 或 组 织 " 1 。 因 此 ,对 信息 
大量 未 经 证 实 的 信息 通过 微 信 、 微 博 、 问 答 社 区 等 平台 。 源 可 信 度 的 研究 通常 分 为 机 构 和 个 人 2 个 方面 ,机 构 
传 效 ,对 人 们 生活 的 方方面面 产生 了 重要 的 影响 。 虚 ”的 类 型 .权威 性 等 是 影响 机 构 信息 源 可 信 度 的 重要 因 
假 偏 息 和 不 可 靠 信息 的 传播 呈现 泛滥 的 趋势 ,对 网 络 。 素 ” ,作者 的 身份 .地 位 、 声 誉 等 是 个 人 信息 源 可 信和 度 
储 裔 生态 环境 造成 了 极 大 的 破坏 。 人 们 对 于 不 熟悉 的 ”评价 的 关键 因素 2 。 高 明 震 等 采用 信息 总 数 . 是 否认 
领域 ,很 难 辨别 信息 的 真 假 。 有 研究 者 提出 利用 “信息 。 证 ,粉丝 总 数 评价 了 新 浪 微 博 用 户 信 息 源 的 可 信和 度 "。 
治理 "来 解决 这 一 难题 ,有 效 信息 治理 的 前 提 是 对 虚假 。 M. Alrubaian 等 从 专业 度 和 声誉 的 角度 评价 Twitter 社 
信和 咏 的 识别 ,从 源头 控制 信息 的 传播 。 早期 研究 主要 ” 交 网 络 用 户 的 可 信和 度 "。 

是 惹 于 信息 源 、 信 息 内 容 媒介 平台 3 个 维度 构建 评价 言 息 内 容 可 信 度 探讨 了 用 户 对 信息 对 象 本 身 的 可 
指标 体系 对 信息 可 信 度 进行 评价 ,其 中 ,对 信息 内 容 的 ”信和 度 感知 ”。C.N. Wathen 等 认为 对 信息 内 容 的 可 信 
可 信和 度 评价 主要 通过 修辞 、 文 本 分 类 等 方法 ,其 准确 。 度 评 价 应 包括 专业 度 、 时 效 性 ,准确 性 和 相关 度 "。 
性 .专业 性 等 需要 通过 专家 判断 ,无 法 处 理 海量 的 网 络 。” R. Li 等 认为 论证 强度 和 信息 质量 影响 信息 可 信和 度 *。 
言 息 资 源 。 因 此 ,本 文 希望 从 在 线 评论 中 获取 群体 用 ”TT， Lucassen 等 将 信息 内 容 可 信和 度 分 为 语义 特征 和 表 
户 的 观点 ,弥补 现 有 方法 的 不 足 , 构 建 更 加 合理 ` 有效 面 特 征 :语义 特征 包括 准确 性 .完整 性 .全面 性 .中 立 性 


的 网 络 社区 信息 可 信 度 评价 方法 。 等 ,表面 特征 包括 长 度 .参考 文献 .图 片 .写作 风格 
等 。 高 明 起 等 采用 文本 长 度 .拼写 错误 .图 表 、 重 复 

日 人 人 、 as 
1 相关 理论 研究 标点 .情绪 词 转贴 数 .评论 数 等 表面 特征 评价 信息 内 
1.1 网 络 信息 可 信和 度 评价 指标 研究 容 的 可 信和 度 '“。G，Sarna 等 通过 判断 网 络 信息 内 容 中 


通过 对 文献 进行 梳理 ,网 络 信息 可 信 度 的 评价 主 ”是 否 存在 网 络 欺凌 来 评价 用 户 的 可 信和 度 ”。 李 保 珍 等 


要 包括 3 个 角度 :信息 源 可 信 度 信息 内 容 可 信和 度 及 巡 ” 采用 用 户 评价 信息 作为 信息 内 容 评价 的 先 验 经 验 信 
介 可 信和 度 。 息 ,对 信息 内 容 可 信和 度 进行 评价 ” 。 
言 息 源 可 信 度 主要 是 在 人 际 之 间 组 织 中 或 大 众 媒介 可 信和 度 关注 信息 内 容 的 传播 渠道 ,而 不 是 内 
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容 的 发 送 者 ""。C. N.， Wathen 和 J. Burkell 认为 网 站 
的 界面 设计 、 加 载 速度 、 界 面 吸 引力 、 可 用 性 、 可 访问 
性 交互 性 和 灵活 性 等 技术 因素 会 影响 用 户 可 信 度 感 
知 ”。R. Li 等 验证 了 媒介 依赖 ,交互 性 、 媒 介 透 明 性 
对 信息 可 信和 度 的 影响 ”。B. J.， Fogg 等 采用 问卷 调查 
法 进行 研究 ,结果 表明 网 站 界面 设计 、 信 息 设 计 / 结 构 、 
信息 焦点 广告 .信息 有 用 性 和 准确 性 、 网 站 创建 者 、 客 
户 服务 等 会 影响 网 站 的 可 信和 度  。 


通过 以 上 文献 梳理 ,我 们 构建 了 包含 3 个 维度 .26 
个 指标 的 评价 指标 体系 。 但 是 ,在 对 知 乎 答案 的 在 
线 评论 进行 分 析 的 过 程 中 (根据 构建 的 评价 指标 体系 
对 知 乎 5 万 余 在 线 评论 进行 可 信 度 评价 指标 编码 ) ,发 
现 有 些 指标 很 少 使 用 ,因此 删 减 统计 频率 小 于 0.1% 
的 指标 ,最终 形成 了 包含 3 个 维度 .21 个 指标 的 评 
价 指标 体系 ,具体 内 容 如 表 1 所 示 : 


表 1 基于 评论 的 网 络 社区 信息 可 信 度 评价 指标 框架 


维度 指标 指标 内 涵 
信 源 可 信 度 机 构 机 构 声 誉 地 位 ”机构 的 知名 度 及 在 行业 中 的 地 位 
机 构 URL 机 构 的 网 址 该 网 址 是 否 有 机 构 的 详细 介绍 ( 名 称 等 ) .权威 作者 总 数 . 疯 助 商 等 信息 
用 户 “ 作 者 身份 通常 指 作者 的 姓名 、 职 称 .专业 背景 和 资历 
作者 声誉 地 位 ”作者 的 知名 度 及 其 行业 地 位 ,包括 作者 创作 量 、 作 者 评论 转发 量 等 

5 作者 所 属 单位 ”作者 所 在 的 单位 ,单位 的 性 质 、 地 位 往往 影响 用 户 的 信赖 程 度 

[ee 作者 动机 作者 发 布 信息 的 目的 ,要 么 是 讲述 一 个 主题 的 真相 ,要 么 是 为 了 服务 自我 提出 的 偏见 信息 
OO) 专业 知识 作者 在 专业 领域 内 形成 的 相对 稳定 的 系统 化 的 知识 
mi 信息 格式 信息 中 的 文本 格式 和 媒体 形式 是 否 通用 ,文本 格式 包括 . doc 、 txt 等 ,媒体 格式 包括 视频 .音频 等 

逻辑 性 文字 的 表达 是 否 清晰 \ 有 逻辑 

忆 写作 风格 写作 风格 是 否 易于 接受 

ee 准确 性 信息 内 容 是 否 真实 ,是 否 能 够 被 证 实 

CD 客观 性 信息 对 事实 描述 的 公正 程度 

GN 时 效 性 信息 发 布 或 更 新 的 时 间 是 否 满足 用 户 的 要 求 

= 及 时 性 系统 能 提供 用 户 所 需 信息 的 程度 或 者 对 于 手头 的 任务 ,信息 充分 更 新 的 程度 

a 完整 性 信息 的 完整 程度 ,是 否 存 在 信息 遗漏 和 成 分 残缺 

之 相关 性 信息 内 容 与 用 户 所 需求 的 目标 值 的 吻合 程度 ,也 就 是 信息 内 容 是 否 与 用 户 的 需要 相关 联 
>< 覆盖 范围 信息 内 容 涉及 主题 领域 及 相关 领域 的 范围 

(5 易 理解 性 信息 内 容 是 否 易于 理解 

人 合理 性 从 自然 角度 来 看 ,信息 描述 是 否 符合 自然 常识 和 客观 规律 ;从 社会 角度 来 看 ,信息 描述 是 否 符合 社会 规范 和 公 

德 伦 理 

(人 全 | 萎 考 

es 

(CD) 媒介 可 信 度 交互 局 媒介 信息 的 发 布 者 与 信息 用 户 联系 的 方式 和 过 程 

权威 性 信息 的 出 版 和 传播 渠道 是 否 权 威 ,是 否 能 够 令 人 信服 


1.2 网 络 信息 可 信 度 评价 方法 研究 
在 网 络 信息 可 信 度 评价 方法 方面 ,主要 通过 抽取 
可 信和 度 指标 特征 ,采用 不 同 的 评价 模型 如 SVM 模型 、 


于 贝 叶 斯 推理 理论 的 网 络 信息 内 容 可 信和 度 的 测度 模 
型 "”。 孟 美 任 等 根据 实证 结果 ,选取 内 容 完 整 性 、 情 
感 平衡 性 .评论 时 效 性 以 及 发 布 者 身份 明确 性 4 类 特 


隐 马 尔 可 夫 模 型 . 贝 叶 斯 推理 理论 进行 评价 。 高 明 霞 
等 提出 一 个 基于 信息 融合 的 中 文 微 博 可 信和 度 评估 框架 
CCM-IF'"。G.，Sama 等 首先 抽取 网 络 其 凌 的 特征 
项 一 一 链接 ,坏话 ,消极 /积极 情绪 、 专 有 和 名词 .代词 等 ， 
然后 利用 SVM 模型 评估 用 户 是 否 可 信 ”!。M.， Park 等 
利用 主题 模型 和 隐 马 尔 科 夫 模型 对 在 线 医疗 数据 的 可 
信 度 进行 评价 "” 。M. Kakol 等 构建 了 一 个 基于 用 户 
评价 的 网 络 信息 可 信 度 评价 预测 模型 ,模型 构建 的 依 
据 是 经 验 数 据 " 。Y.，Namihira 等 提出 基于 主题 和 意 
见 分 类 的 自动 可 信 度 评价 方法 。 李 保 珍 等 提出 基 
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征 ,采用 CRFs 模型 进行 评论 可 信 度 4 级 分 类 ,并 进行 
特征 组 合 实验 ,得 到 最 佳 特征 组 合 … 。 

现 有 信息 可 信 度 评价 采用 的 方法 如 贝 叶 斯 推理 理 
论 模型 . 隐 马 尔 科 夫 模型 .SVM 等 都 需要 经 验 数据 才 
能 构建 评价 模型 ,但 是 网 络 信息 可 信 度 的 评价 具有 很 
强 的 主观 性 ,并 且 现 阶段 没有 可 用 于 网 络 信息 可 信 度 
评价 的 数据 集 。 因 此 ,本 文采 用 加 权 D-S$ 证 据 理论 融 
合用 户 评价 观点 数据 ,获取 各 个 指标 的 评分 ,使 用 改进 
AHP 确定 指标 权重 ,最 终 求 出 信息 可 信 度 评价 结 
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2 ”基于 在 线 评论 的 网 络 社区 信息 可 信 度 


评价 方法 
2.1 在 线 评论 可 信 度 评价 情感 分 类 

本 文 在 构建 的 可 信 度 评价 指标 体系 基础 上 ,对 评 
论 进行 可 信 度 评价 人 工 标 引 , 通 过 评论 的 情感 分 类 区 
取 评论 的 可 信 度 评价 观点 数据 ,如 评论 * 请 了 解 同 源 重 
组 ,想象 是 靠不住 的 "是 对 信息 准确 性 的 评价 ,评论 
“有 道理 "是 对 信息 合理 性 的 评价 ,评论 如 * 看 到 现在 ， 
最 理性 的 答案 ~“ 和 * 我 也 看 出 了 他 在 这 个 地 方 论证 
的 漏洞 "都 是 对 信息 合理 性 进行 评价 ,前 者 情感 分 类 为 
积极 ,说 明 发 表 评论 的 用 户 认为 信息 是 合理 的 ,后 者 情 
感 分 类 为 消极 ,说 明 发 表 评 论 的 用 户 认为 信息 不 合理 。 
诺 伦 情感 分 类 的 方法 主要 包括 基于 词典 的 方法 支持 
向 晤 机 方法 .LDA 模型 .机 器 学 习 等 方法 "”"。 近 年 
殉 洲 度 学 习 在 文本 情感 分 类 处 理 研究 中 取得 了 不 钳 
的 直线 ,本 文采 用 LSTM 深度 学 习 模型 识别 情感 极 性 ， 
前 过 程 主要 包括 评论 文本 数据 的 预 处 理 、 词 向 量 训 
练 JESTM 情感 分 类 模型 构建 等 。 本 文 对 情感 分 类 采用 
的 两 级 分 类 模型 , 即 情感 分 类 结果 为 积极 或 者 消极 ， 
若 这 分 析 流程 如 图 1 所 示 ; 


评论 文本 预 处 理 


本 
ME | 


评论 | 评论 可 信和 度 指标 
清洗 评价 标注 


Word2vec 词 向 量 训练 


2.1.2 基于 LSTM 的 情感 分 析 模 型 构建 

(1) word2vec 词 向 量 训练 。 在 LSTM 情感 分 析 模 
型 构建 之 前 ,需要 将 词 转化 为 词 向 量 。word2vec 模型 
是 Mikolov 等 开发 的 词 向 量 建 模 工 具 ” ,可 以 用 于 自 
然 语言 问题 的 解决 ,在 中 文 评 论 情感 分 类 应 用 中 取得 
了 较 好 的 效果 。 由 于 大 规模 、 高 质量 的 中 文 语料库 
比较 少 ,维基 语料库 对 日 常生 活 和 常识 性 的 通用 性 知 
识 的 表示 效果 都 很 好 , 知 乎 作为 一 个 知识 型 的 问答 社 
区 ,不 仅 包 含 日 常生 活 评论 ,还 包含 一 些 通用 性 知识 ， 
采用 维基 语料库 具有 可 行 性 。 本 文 2018 年 8 月 13 日 
从 网 络 ( https://dumps. org/ zhwiki/ 
20190101/ ) 下 载 中 文 维基 百科 语 料 包 ,将 其 进行 处 理 
(包括 繁 简 转换 等 ) ,分 词 ,利用 word2vec 进行 词 向 量 
训练 ,得 到 词 向 量 。 

(2) LSTM 情感 分 类 模型 训练 。 在 自然 语言 处 理 
中 ,通常 使 用 的 是 循环 神经 网 络 ( recurrent neural net- 
work ,RNN) 。 在 深度 学 习 语 言 处 理 模型 中 ,句子 作为 
序列 化 的 输入 , 相 邻 的 字 构 成 词 , 相 邻 的 词 构成 短语 ， 
相 邻 的 短语 构成 句子 。RNN 能 将 邻近 位 置 关 系 进 行 
有 效 整合 ,更 好 地 完成 语言 任务 ,能 够 很 好 地 利用 上 下 
文 特征 信息 ,并 保留 文本 的 顺序 信息 ,自动 选择 特征 ， 
进行 分 类 。 因 此 ,本 文采 用 LSTM 模型 作为 
情感 极 性 识别 的 学 习 模 型 。 具 体 处 理 过 程 
如 图 1 所 示 , 将 获取 的 情感 标注 语 料 进 行 处 
理 , 再 进行 分 词 ,依据 word2vec 训练 出 来 的 
词 向 量 模型 构建 句 向 量 , 将 句 向 量 输入 
LSTM 模型 训练 ,获取 LSTM 情感 分 类 模型 。 
最 后 ,利用 构建 好 的 LSTM 情感 分 类 模型 对 


wikimedia. 


LSTM 情感 分 类 模型 构建 


评论 文本 内 容 进行 情感 分 类 。 


图 1 在 线 评论 可 信 评 价 观点 识别 过 程 
2.1.1 评论 文本 数据 预 处 理 ”包括 :中 对 采集 的 相关 


评论 数据 进行 处 理 , 包 括 宛 余数 据 的 清理 ,不 完整 数据 
的 删除 ,符号 的 转换 等 数据 清洗 工作 ;@ 根 据 构 建 的 可 
信 度 评价 指标 体系 对 评论 进行 编码 ,然后 选取 有 可 信 
度 指 标 评价 的 评论 ,如 评论 “数据 说 话 ,我 服 " 是 对 合 
理性 进行 评价 ,是 具有 可 信和 度 指 标 评价 的 评论 ;评论 
“我 有 地 贫 的 基因 是 不 是 不 能 献血 的 ?没有 对 信息 可 
信 度 指标 进行 评价 ;@@ 对 评论 文本 进行 分 句 , 对 分 句 后 
的 文本 再 次 进行 清理 ,删除 没有 意义 的 数字 ,符号 等 内 
容 ; 由 分 词 。 


人 类 4 果 | 2.2 ”网 络 社区 信息 可 信 度 评价 方法 
2.2.1 评论 融合 方法 一 改进 的 D-S 证 据 
理论 模型 ”用 户 评论 数据 具有 和 较 强 的 主观 


性 ,造成 了 对 信息 可 信和 度 评价 的 不 确定 性 。 
因此 ,如 何 运用 用 户 评论 数据 ,并 建立 合理 的 评价 模型 
至 关 重 要 。 证 据 理 论 建 模 工 具有 很 好 的 证 据 聚 合作 
日 ,在 专家 系统 .决策 分 析 故障 诊断 .目标 识别 等 信息 
融合 中 得 到 了 广泛 的 应 用 。 在 评论 融合 过 程 中 ,出 
现 了 Zadeh 悖 论 问题 ,针对 该 问题 ,采用 改进 的 D-S 证 
据 理论 模型 处 理 用 户 评论 数据 。 在 用 户 识别 方面 ,本 
文 将 撰写 评论 用 户 和 点 赞 该 评论 用 户 分 别 计算 , 即 点 
赞 该 评论 用 户 作 为 与 撰写 评论 观点 用 户 持 有 相同 观点 
的 其 他 用 户 。 以 下 是 基于 改进 的 DS 证 据 理 论 的 评论 
融合 数学 模型 。 
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六 上 ;AaVY /全 (让 甘 日 工 
C hi 1aXIV 王 个 FF 其 | | 


TT] 


设 是 一 个 识别 框架 。 在 识别 框架 上 的 基本 概 
率 分 配 是 一 个 29 一 [0,1] 的 函数 各, 称 为 mass 函数 ， 
并 且 满 足 m(5) =0 且 导 m(4) =1。 此 时 ,m 为 框架 


9 


R 


上 的 基本 可 信 度 分 配 ,于 是 由 Bel(4) = Sm(B8)(Y Cc 
@ ) 所 定义 的 函数 Bel:2°-、 [0,1] 为 @ 上 的 信 度 函 
数 。 设 pl:2 一 [0,1],pl(A) =1-Bel(A), 则 称 pl 为 
Bel 的 似 然 度 函 数 。 该 函数 表明 我 们 不 怀疑 A 的 程度 
或 者 发 现 A 可 靠 或 似 真 的 程度 。 根 据 上 式 , 则 有 PI 
(4) =, 车,m(B) VC@。 对 于 A ， 上 的 有 限 个 mass 
函数 m ,ms ,…,m, 的 Dempster 合成 规则 为 : 


Cr 于 


K aNnA4n nA,=A 


1 (4 ) x 


ms (hs) x em, (4,) 
本 其 中 ,kK 为 归 一 化 常数 ， 
= Bm A) maha) em, (4,) =1- 
“ma (hs) em, (4,) 式 (2) 
在 以 上 理论 基础 上 ,定义 评价 框架 : 

一 (1) 设 @ 是 一 个 识别 框架 ,包含 两 个 不 相 容 的 人 


式 (1) 


说 售 题 ,其 军 集 2* = | A, ,A,1 。 焦 元 分 别 是 A ,As,A， 
六 限 极 观点 ,A; 为 消极 观点 。 

二 (2 ) 每 一 个 用 户 的 评论 作为 一 项 证 据 ,n 个 证 据 
EGE,,…,E, 的 基本 信任 分 配 函 数 为 m ,ma ，…,muv， 
评论 积极 观点 概率 为 p ,p;,…,p,, 当 Pp 值 为 1 时 , 评 
论 光 完全 积极 评论 ; 当 p 值 为 0 时 ,评论 为 完全 消极 评 
Ye 

,三 (3) 根 据 Dempster 合成 规则 ,第 i 个 特征 值 对 应 第 
i mass 函数 mi,n 维特 征 向 量 了 对 应 n 个 mass 函 
数 了 当 集合 A= 1A,} 时 , 即 观点 为 积极 观点 时 ,对 应 mn 
个 mass 函数 (mi ,ms，…,m,) = (pi;p;,…,p,) , 同 理 ， 
当 集 合 A = 1A;,| 时 ,对 应 的 n 个 mass 函数 (mi ,ms ，…， 
m,)=(1-pi,l -ps,"*,l —p,)。o 

(4) 设 用 户 积极 观点 句 的 数量 为 Pos, 消 极 观点 句 


的 数量 为 Neg, 则 有 : 
Pos, 
p, = Pos, + Neg, 2 


(5 ) 将 评论 信息 进行 融合 。 由 于 评论 的 情感 极 性 
矛盾 较 大 ,导致 证 据 理 论 合成 悖 论 , 本 文采 用 加 权 平 均 
法 解决 这 一 问题 ”。 具 体 方法 如 下 : 
步骤 一 :计算 证 据 间 的 相似 系数 , 列 出 相似 矩阵 
正 据 El 和 E2 间 的 相似 系数 可 以 表示 为 : 

> _m(Ai)m,(4h,) 


ANMB,=A,#8 


RICH 再 


O 


pa 


dos[0,1] 式 (4) 
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根据 用 式 (4) 计 算出 证 据 之 间 的 相似 系数 ,以 矩 


阵 的 形式 表示 : 
1]  d， d, 
dy 1 dd, | 
5= 式 (5) 
d, dd, 1 


步骤 二 : 求 出 各 证 据 的 支持 度 。 将 矩阵 的 每 行 相 
加 得 到 每 个 证 据 对 的 支持 度 为 ; 

aup(m,) = 六 四 (=12，…n) 式 (6) 

步 又 三 : 求 出 各 证 据 的 可 信 度 。 将 证 据 的 支持 度 
归 一 化 可 得 到 证 据 起 的 可 信 度 : 


0 
up WE ) 
步 又 四 :把 可 信 度 作为 权重 ,对 证 据 的 基本 信任 分 
配 进行 加 权 平均 。 


步骤 五 :用 D-S 合成 规则 式 (1)、(2) 合 成 加 权 平 
均 证 据 , 取 加 权 平 均 证 据 结果 作为 各 个 指标 的 可 信 度 
评价 结 
2.2.2 指标 权重 确定 方法 ”本 文采 用 改进 的 AHP 方 
法 确定 指标 的 权重 。 传 统 的 AHP 方法 需要 根据 一 致 
性 检验 结果 判断 结果 的 有 效 性 ,并 且 需 要 多 次 调整 才 
能 通过 一 致 性 检验 ,本 文 借 鉴 梁 标 等 ” 的 研究 ,确定 
旨 标 权重 ,该 方法 采用 最 优 传递 矩阵 一 次 性 确定 权重 ， 
不 需要 进行 一 致 性 检验 。 其 计算 过 程 如 下 : 

步 又 一 :使 用 德尔 菲 法 构造 判别 矩阵 A, 对 体系 中 
的 各 级 指标 进行 两 两 比较 ,确定 各 个 指标 的 相对 重要 
性 ,各 级 指标 标 度 如 表 2 所 示 : 
表 2 各 级 指标 矩阵 比较 标 度 


重要 程度 说 明 


性 x 较 y 同等 重要 
性 x 较 y 稍微 重要 
性 x 较 y 明显 重要 
性 x 较 y 特别 重要 
性 x 较 y 极端 重要 
属性 x 较 y 介 于 各 等 级 之 间 


步骤 二 :计算 判别 矩阵 A 的 最 优 传递 矩阵 : 
b;=lgay(i,j=1,2,.…,n) 式 (8) 
6 = bab) (1y=1,2,.,n) 式 (9) 


步骤 三 :计算 拟 优 矩 一 致 矩 阵 : 
ay =10%(i,7=1,2,.…,n) 
步骤 四 : 求 A 特征 向 量 ( 方 根 法 ) 得 : 


x\y 对 总 目标 的 贡献 相同 1 
x 的 贡献 稍 大 于 y 3 

x 的 贡献 明显 大 于 y 5 
7 

所 


x 的 贡献 特别 明显 大 于 y 
x 的 贡献 以 压倒 优势 大 于 y 
相 邻 两 判断 的 折 中 


再 测 设 设 测 
六 


式 (10) 


MN :A 人 M4 碟 甘 日 工 
ChinaXiv 合 作 期 刊 


国 佳 ， 郭 勇 , 沈 旺 , 等 .基于 在 线 评论 的 网 络 社区 信息 可 信和 度 评价 方法 研究 [J]. 图 书 情报 工作 ,2019 ,63(17):137 -144. 


wi = (WW ) (=1,2,.,n) 式 (11) 

步骤 五 : 归 一 化 得 到 指标 权重 : 

Ww, = 一 = (wi ,0 0, ) (i =]1,2,….n) 式 (12) 
> WU; 


让 三 


3 ”应 用 研究 


3.1 数据 采集 及 预 处 理 
实证 数据 来 源 于 知 乎 问答 社区 ,在 对 知 乎 的 话题 


进行 分 析 后 ,我们 选择 用 户 关注 和 争论 较 多 的 献血 和 
转基因 话题 作为 采集 主题 。 利 用 网 络 息 忠 , 在 2017 年 
11 月 15 -23 日 候 取 了 54 021 条 评论 及 相关 信息 (包括 
问题 答案 、 点 赞 数 等 )。 我 们 采用 扎根 理论 对 54 021 
条 评论 进行 了 信息 可 信和 度 评价 编码 ,对 可 信和 度 进行 评 
价 的 评论 共有 29 096 条 。 由 于 答案 较 多 ,我 们 选择 了 
可 信 度 观点 评论 较 多 的 10 个 答案 作为 样本 。 每 个 答 
案 的 基本 信息 如 表 3 所 示 : 


表 3 知 乎 答案 基本 信息 表 


评论 可 信和 观点 


序 话题 ”观点 信息 内 容 作者 身份 知 乎 身份 数量 评论 数量 

《条 ) 条 ) 

1 献 支持 ”鼓励 献血 ,献血 的 害处 不 太 大 ,但 绝 非 有 益 ,鼓励 在 身体 健康 情况 下 临床 医学 博士 无 611 231 
献 

不 鼓励 献血 ,在 学 校 献 血 车 献血 过 程 感觉 不 好 土木 工程 专业 学 生 无 456 159 

反对 献血 ,认为 免费 献血 过 程 中 存在 黑幕 匿名 用 户 无 713 494 

鼓励 献血 ,说 明 血 站 的 困难 和 可 能 存在 的 问题 医学 行业 人 员 医学 话题 优秀 回答 者 。 998 212 

对 支持 转基因 者 表示 忱 虑 ,不 赞同 反对 转基因 者 转基因 行业 人 员 无 452 325 

支持 ,提供 证 明 转 基因 安全 的 证 据 图 片 无 无 453 218 

支持 转基因 ,认为 反 转 基因 是 “穷人 思维 ” 无 无 539 366 

反 转 基因 知名 网 络 小 说 作者 无 292 231 

中 立 ,转基因 技术 可 以 带 来 益处 ,但 是 也 存在 风险 律师 无 236 188 

支持 ,支持 转基因 商业 化 保险 行业 人 员 无 249 155 


数字 进行 了 删除 ,获得 15 562 条 句子 ,之 后 采用 结 
* 词 工具 对 评论 句子 进行 分 词 。 
在 线 评论 可 信 度 评价 情感 分 类 
-首先 ,从 Wiki 百科 下 载 中 文 最 新 数据 作为 词 向 量 
训 长 语 料 ,去除 帮助 页 面 和 重 定向 等 无 用 页 面 。 其 次 ， 
过 员 特 殊 的 非 文 本 标记 。 最 后 对 于 文本 信息 进行 繁体 
到 简体 的 转化 。 清 洗 语 料 , 去 除 标 点 .数字 、 非 中 文字 
符 等 。 在 对 语 料 进行 分 词 后 进行 词 向 量 训练 , 词 向 量 
的 维度 为 300 维 ,滑动 窗口 大 小 为 5。 训 练 后 获取 词 向 
量 模型 库 。 

本 文通 过 分 析 采 集 的 评论 ,构建 了 包含 5 000 条 
人 工 标 引 情感 极 性 的 网 络 社区 评论 情感 分 类 语料库 。 
使 用 结巴 软件 对 语 料 进行 分 词 ,在 词 向 量 基础 上 构建 
名 向量。LSTM 模型 输入 节点 设置 为 256 ,隐藏 节点 设 
置 为 128 。 经 过 训练 获得 LSTM 情感 分 类 模型 。 模 型 
分 类 的 准确 率 为 90.01% 。 

将 经 过 清洗 和 处 理 的 在 线 评论 转化 为 句 向 量 , 输 
入 到 LSTM 情感 分 类 模型 中 ,获得 基于 LSTM 模型 的 在 
线 评论 的 情感 分 类 。 
3.3 ”基于 在 线 评论 的 网 络 社区 信息 可 信和 度 评价 结果 
依据 2.2.1 的 评论 融合 方法 ,对 情感 分 类 数据 进 


SN 


了 融合 计算 。 在 计算 过 程 中 ,不 只 计算 评论 用 户 的 观 
点 ,还 计算 点 赞 用 户 的 观点 , 即 当 用 户 对 某 一 评论 点 
赞 , 则 认为 他 具有 相同 观点 ,并 作为 一 个 独立 的 证 据 进 
行 计算 。 融 合 各 个 用 户 的 评论 情感 证 据 , 得 到 每 个 答 
案 的 可 信和 度 指标 值 见 表 4。 

依据 2.2.2 的 权重 计算 方法 ,使 用 专家 判断 矩阵 
计算 指标 权重 ,指标 权重 见 表 5。 最 后 ,计算 出 每 个 问 
题 的 信息 可 信 度 评价 结果 见 表 6。 
3.4 评价 结果 分 析 

言 息 可 信 度 是 用 户 根据 经 验 判断 事情 为 真 的 相信 
程度 ,是 主观 性 的 感知 , 知 乎 社区 中 答案 的 赞同 数 . 评 
论 数 等 并 不 能 反映 出 答案 的 可 信 程 度 ( 例 如 ,只 包含 一 
名 搞笑 的 话 的 答案 得 到 了 更 高 的 赞同 ,并 不 是 因为 用 
户 相 信 这 条 答案 ,而 是 由 于 用 户 觉得 这 个 答案 有 趣 ) 。 
因此 ,为 了 验证 评价 结果 的 有 效 性 ,本 文选 择 了 50 位 
调查 者 对 每 个 问题 的 可 信 度 进行 了 问卷 调查 ,去 除 其 
中 的 无 效 问卷 6 份 ,最 终 采 集 问卷 44 份 , 管 中 舌 豹 , 希 
望 能 够 获得 用 户 对 答案 的 可 信和 度 主 观 判 断 。 调 查 者 的 
年 龄 范围 在 18 -35 岁 ,涉及 19 个 行业 或 专业 ,学 历 为 
高 中 本科 和 硕士 。 调 查 者 需要 详细 查看 每 个 答案 ,并 
填写 调查 问卷 。 调 查 问题 一 是 问题 的 可 信和 度 为 可 信和 、 
不 确定 及 不 可 信 ,对 应 数值 为 0,0.5 和 1; 二 是 问题 的 
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表 4 基于 可 信 观 点 评论 情感 分 析 的 信息 可 信和 度 评 价 指标 结果 

.机 :者 省 Pe 四 本 Es ee 

问题 A 机 构 作者 作者 “专业 信息 ” 淄 辑 写作 准确 客观 时 效 及 时 完整 相关 覆盖 易 理 合理 交互。 权威 
编号 ,URL ”身份 、 动机 知识 格式 性 风格 性 性 性 性 性 性 ”范围 解 性 ”性 性 性 

地 位 地 位 ”单位 
1 hl 1 1 1 0.0626 I 1 0.5 0.0707 1 1 0.095 0 1 ll 
0 0 0 I 1 0 0.020 1 0 0 0 0.057 8 1 0 0.0707 0.0707 0.6667 0 0 1 0 
3 1 1 1 0 0.1007 0.051 2 0.093 4 0.1577 I 1 0 0 0 G3 0 
4 1 1 1 1 1 0.079 9 0.170 1 1 1 1 i 1 0.1470 0.0799 0 1 
5 1 | 和 0 0.008 0 0.1580 0.069 8 0.0649 0 0 0.342 3 1 0.141 1 0.1049 1 1 
6 0.132 7 1 1 1 0.0360 0.1544 0.1296 0.088 1 1 1 0 1 0.092 6 0.655 1 1 
7 0 0 0 0 0 0.6177 0.2800 0 0.771 1 0.4337 0.246 1 0.2699 0 0 0 0 1 0.281 3 0 0 
8 0 1 1 0 0.061 6 0.092 8 0.093 9 0.0749 0.224 4 1 E 0.1043 0.5 1 0.058 8 1 1 
9 0.528 3 I I 1 0.680 8 0 0.403 1 0.678 4 1 0.5 0 1 0 0.408 3 0.6037 0 0 
10 0.246 1 0.2699 I 0.6177 0.2800 1.2800 0.433 7 1 二 0 1 1 0.281 3 1 
表 5 各 指标 权重 

| 作者 作者 CR es 0 

机 构 作者 志 基 记 属 作者 专业 信息 地 辑 写作、 准确 客观 时 效 及 时 完整 相关 名 盖 易 理 合理 交互 权威 

URL ”身份 地 位 音 位 动机 ”知识 格式 性 风格 性 性 性 性 性 性 范围 解 性 ”性 性 性 


表 6 基于 调查 问卷 可 信和 度 评价 结果 


于 调查 问卷 的 基于 可 信 观 点 评论 情感 ”基于 所 有 评论 情感 
可 信 度 值 分 析 的 信息 可 信 度 值 ”分析 的 信息 可 信 度 值 
0.847 8 0.762 4 0.304 3 
0.630 4 0.117 2 0.594 4 
0.391 3 0.243 8 0.094 7 
0.782 6 0.669 8 0.251 8 
0.456 5 0.430 5 0.049 2 
0.565 2 0.565 6 0.360 2 
0.434 8 0.257 2 0.0717 
"一 0.456 5 0.272 8 0.094 3 
5 S 0.652 2 0.6370 0.186 2 
10 0.543 5 0.519 4 0.113 7 


熟悉 度 , 对 应 数值 为 1,3,5。 将 问题 的 熟悉 度 作为 权 
重 ,计算 每 个 答案 的 可 信和 度 ,具体 计算 方法 如 见 式 
(13) ,计算 结果 见 表 6。 同 时 ,为 了 验证 使 用 所 有 评论 
数据 是 否 能 够 对 信息 内 容 可 信和 度 评价 ,本 文 将 所 有 评 
论 进 行情 感 分 析 ,并 采用 证 据 融合 方法 进行 计算 ,获得 
基于 所 有 评论 的 网 络 信息 内 容 可 信和 度 值 , 见 表 6。 


| 
Ci 12) 式 (13) 


其 中 ,C, 为 答案 的 可 信和 度 评价 最 终结 有 果 , 共 有 个 
用 户 对 答案 可 信和 度 进行 评价 ,f; 为 第 i 个 用 户 对 问题 的 
熟悉 程度 ,c 为 第 i 个 用 户 对 问题 的 可 信和 度 评价 数值 。 
本 文 对 3 种 方法 获得 的 评价 结果 按照 数值 大 小 进行 了 
重新 排列 ,以 便于 结果 分 析 , 见 表 7。 通 过 对 可 信和 度 值 
的 排列 可 以 发 现 , 在 去 掉 答 案 2 后 ,基于 调查 问卷 的 可 


由 
ah 


Cr=e,> 


和 
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信 度 值 排序 和 基于 可 信 观 点 评论 情感 分 析 的 可 信 度 值 
排序 基本 一 致 ,说 明了 基于 可 信 观 点 情感 分 析 的 可 信 
度 评 价 方法 的 有 效 性 。 基 于 所 有 评论 情感 分 析 的 可 信 
度 评 价 结果 与 基于 问卷 的 可 信 度 评价 结果 不 一 致 ,说 
明 不 能 用 所 有 评论 情感 分 析 对 信息 内 容 的 可 信和 度 进行 
评价 。 基 于 调查 问卷 的 可 信 度 值 稍 高 于 基于 可 信 观 点 
评论 情感 分 析 的 可 信 度 值 ,如 图 2 所 示 , 这 是 由 于 用 户 
对 信息 内 容 产 生 质疑 后 ,更 容易 导致 可 信和 度 观 点 评 
论 。。 从 图 2 中 我 们 还 观察 到 了 一 个 有 趣 的 现象 , 当 可 
信 度 值 的 区 间 为 0.4 -0.7 时 ,基于 问卷 的 可 信和 度 值 与 
基于 可 信 观 点 评论 情感 分 析 的 可 信和 度 值 基本 一 致 ,说 
明 当 对 可 信和 度 评价 不 确定 时 ,基于 可 信 观 点 评论 情感 
分 析 的 可 信和 度 评价 更 接近 实际 评价 , 当 可 信和 度 评价 结 
果 趋 于 可 信 或 不 可 信 时 ,基于 可 信 观 点 评论 情感 分 析 
的 可 信 度 评价 值 低 于 实际 值 。 

本 文 对 异常 点 进行 了 分 析 , 调 查 者 对 答案 2 的 可 
信 度 评价 较 高 ,排名 第 4, 而 基于 评论 情感 分 析 的 可 信 
度 值 排 在 第 10 位 ,差别 较 大 。 答 案 2 的 观点 为 “不 鼓 
励 献血 ,在 学 校 献血 车 献血 过 程 感觉 不 好 ”, 评 论 内 容 
多 为 对 自己 献血 的 事实 描述 ,如 “我 第 一 次 献血 的 时 候 
没 吃饭 还 深 了 ”从 那 以 后 身体 就 不 如 以 前 了 ”“ 刚 献 
完 直接 尝 那 五 分 钟 ”等 ,根据 情感 分 析 结 果 , 这 些 评论 
都 是 消极 评价 ,代表 答案 内 容 不 可 信 , 但 是 实际 上 其 观 
点 与 答案 观点 一 致 ,说 明 答 案 是 可 信 的 ,因此 ,导致 了 
评价 结果 差异 。 该 问题 为 进一步 研究 提出 了 方向 , 即 
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国 佳 , 郭 筋 , 沈 旺 ,等 .基于 在 线 评论 的 网 络 社区 信息 可 信 度 评价 方法 研究 []]. 图 书 情报 工作 ,2019 ,63(17) :137 -144. 
表 7 基于 调查 问卷 的 可 信和 度 值 与 基于 评论 情感 分 析 的 可 信和 度 值 排序 比较 
排名 序号 基于 调查 问卷 可 信 度 值 序号 于 ee 析 序号 ee 办 
1 1 0.847 8 1 0.762 4 2 0.594 4 
2 本 0.782 6 4 0.669 8 6 0.3602 
3 9 0.652 2 9 0.6370 1 0.304 3 
4 2 0.630 4 6 0.565 6 4 0.2518 
5 6 0.565 2 10 0.519 4 9 0.1862 
6 10 0.543 5 5 0.430 5 10 0.1137 
7 5 0.456 5 8 28 3 0.0947 
8 8 0.456 5 J O2372 8 0.0943 
9 这 0.434 8 访 0.243 8 这 0.071 7 
10 3 0.391 3 2 Dn . 0.049 2 
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一 国 一 基于 可 信 观 点 评论 的 信息 可 信和 度 值 


基于 所 有 在 线 评论 情感 分 析 的 信息 


可 信和 度 值 
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在 当 评 论 内 容 为 事实 描述 的 时 候 , 情 感 分 类 不 能 代表 
A es mere 昔 述 观点 与 答案 
内 本 出 点 的 一 致 性 评价 信息 的 可 信 度 


4 结论 


DE 广 提 出 一 一 种 基于 在 线 评论 计算 网 络 信息 的 可 信 
度 的 评价 方法 ,首先 构建 了 基于 在 线 评论 的 网 络 信息 
可 信 度 评价 指标 体系 ,利用 改进 的 AHP 模型 确定 权 
重 ;采用 LSTM 模型 计算 评论 的 情感 极 性 ,通过 改进 的 
证 据 理论 模型 对 用 户 评 论 数 据 进 行 融 合 ,结合 权重 最 
终 计算 出 网 络 信息 的 可 信和 度 值 。 通 过 对 知 乎 两 个 主题 


下 10 个 样本 的 评论 信息 的 处 理 , 对 提出 的 方法 进行 试 
验 验 证 。 试 验 结果 表明 在 去 除 一 个 异常 值 后 ,基于 问 


卷 的 网 络 信息 可 信和 度 值 与 基于 可 信 观 点 评论 的 网 络 可 
信和 度 值 排序 基本 一 致 ,可 以 有 效 对 网 络 信息 的 可 信和 度 


进行 排序 ;使 用 所 有 评论 对 网 络 信息 进行 评价 的 准确 
率 较 低 ,基于 评论 对 网 络 信息 可 信 度 进行 评价 前 必须 


进行 可 信 观 点 评论 第 选 。 同 时 本 文 也 存在 一 些 局 限 ， 
样本 类 型 只 选择 了 知 乎 两 个 主题 的 评论 ,评论 数量 规 
模 有 限 ,还 有 异常 值 的 出 现 , 说 明 网 络 信息 可 信和 度 评 价 


案 

案 

案 

案 

案 6 
答案 10 

案 

案 


图 2 3 种 评价 结果 比较 


是 一 个 复杂 的 过 程 , 当 评 论 包 含 对 事实 描述 的 时 候 , 需 

a 致 性 ,后 
研究 希望 扩大 样本 量 和 范围 ,综合 利用 多 种 手段 解 

et. 题 。 
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Abstract: | Purpose/significance | A social Q&A community information credibility evaluation method based on on- 


line reviews was proposed, aiming to provid an effective methods for information governing. [ Method/process| The pa- 


per constructed the evaluation system of online community information reliability based on online reviews, and the indica- 


tor weight was determined by improved AHP theory. The LSTM model was used to classify the reviews emotion, and the 


improved D-S evidence theory model was used to fuse the emotion classification data. Taking ZhiHu Community as an ex- 


ample, the credibility of network information content was calculated from three perspectives: screened online reviews with 


credible opinion evaluation, all online reviews and questionnaires. [ Result/conclusion | The experimental results showed 


that the ranking of the credibility value of this method was basically the same as that of the ranking obtained by the ques- 


tionnaire. It showed that it is feasible to evaluate the credibility of the network information by online review. 
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